Szenario¶
- Finanzamt will Steuerhinterziehung minimieren
- nur wenig Mitarbeiter und Zeit
- daher Priorisierung von potentiellen Steuerhinterziehern
Vorgehen¶
- Data Exploration
- Bereinigen der Airbnb Daten
- Gruppierung von vermutlich zusammengehörigen Listings und Hosts
- Ermittlung minimale Einnahmen
- Visualisierung Big Fishes
Mängel in den Daten¶
- Sinnlose Werte (minimum_nights < 0)
- Widersprüche (construction_year > last_review)
- Datentyp Features (price:
10 $-->10.0) - Verarbeitung leerer Felder (reviews = NaN)
- Platzhalter-Daten (
#Name?,(Email hidden by AirBnb)) - Konsistenz erzeugt (
calculated host listings count: 0 -> 1)
Generierung Big Fish Value¶
bigfishvalue = ( price · minimum nights · number of reviews) + (service fee · number of reviews)
Anzahl der Reviews --> Untere Schranke für Vermietungen
(Hypothese: price gilt pro Nacht)
Caveats:¶
Beispiel-Datei verbindet gleiche hosts nicht mittels host_id
Beispiel-Datei hat Angebote mehrfach drin
unser Vorgehen: über host_name und calculated_host_listings_count gruppieren
| Name | Totals | |
|---|---|---|
| 0 | Shirley__12.0 | 6356840.0 |
| 21 | Danielle__5.0 | 4877492.0 |
| 33 | Karen__208.0 | 3950702.0 |
| 227 | Sonder (NYC)__54.0 | 3742975.0 |
| 272 | Juel__5.0 | 3731554.0 |
| 286 | Justin__102.0 | 3371688.0 |
| 385 | Carlos__5.0 | 2963873.0 |